#!/bin/bash
# run_esrgan_large.sh
echo "启动ESRGAN大型训练任务..."

# 设置工作目录(按需选择)
cd /home/vscode/workspace/py-torch-learning/codes/esrgan-project

# 创建目录
mkdir -p data checkpoints logs

# 安装依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 记录开始时间
start_time=$(date +%s)
echo "实验开始时间: $(date)"

# 检查GPU状态
nvidia-smi

# 启动训练
nohup python3 -u main.py \
    --epochs 100 \
    --batch_size 8 \
    --dataset_path ./data \
    --checkpoint_dir ./checkpoints \
    --download_datasets \
    > training_log_esrgan_$(date +%Y%m%d_%H%M%S).txt 2>&1 &

# 记录进程ID和日志文件
echo "训练任务已在后台启动，PID: $!"
log_file="training_log_esrgan_$(date +%Y%m%d_%H%M%S).txt"
echo "日志文件: $log_file"

# 监控GPU使用情况（每5分钟记录一次）
while true; do
    echo "GPU监控: $(date)" >> $log_file
    nvidia-smi >> $log_file 2>&1
    sleep 300  # 5分钟
done &